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similarity is trained and used for Vrterbi alignment.) 

c) Use the alignment result to break the summary 
into segments each associated with an anchor 
point. Since the anchor points carry time stamps, 
we achieve a time alignment between the summary 
ecript and the speech data. 

d) Repeat this process on the subsegments that can 
still be broken into smaller parts. 

[0072] The following is an explanation of Figure 5. The 
block 401 contains a decoded text (ordered series of 
recognized words) DT that is schematically represented 
by a vertical left series of words 1,2.3. „.8 and a tran- 
script T that is schematically represented by a vertical 
right series of words 1'.2'.3' ... 7\ The pairs of words 
(1 , 1 '), (4,5'), (8.7') were matched as described in Figure 
4. The series of words 1,2..„.8 is aligned against audio 
data (block 402) in the course of decoding (Figure 3 
block 42), as schematically shown inside block 402. Let 
(TO. T1), (T1, T2),...(T7, T8) correspond to the begin- 
nings and ends of words 1 .2. 3... 8, respectively. Then the 
matched transcript words 1 ', 5\ T will correspond to time 
data (TO.TI). (T3.T4), (T7.T8). respectively (via the 
matched decoded words). 

[0073] Remaining decoded words can be aligned with 
the time data by linear interpolation. For example, time 
segment {T1 , T3) corresponds to the word segment W2, 
W3, and can be aligned in accordance with the length 
of words. For example, if W2 consists of N phonemes 
and W3 of M phonemes, and t-T3*TI then the segment 
yTI, T1 +t*N/(N+M) corresponds to W2. and the segment 
yTI +*N/(N +M). T3' corresponds to W3. 
[0074] The aligned transcript-audio data is trans- 
ferred to the block 403 where is it aligned with video data 
from the record/playback deck 1 9 of Figure 3. This align- 
ment is obtained by time stamping that was done for au- 
dio-video data. 

[0075] The folkiwing Is an explanation of Figure 6 in 
which the speech recognizer vocabulary is obtained 
from segments of the text transcript. The block 501 con- 
tains the current part of a transcript Ti that is processed. 
This part of the transcript Ti is used to derive the vocab- 
ulary V 504 from which the text in TI was formed, and 
the approxinriate size 503 of the tape section 605 that 
contains the speech that corresponds to Ti. The size can 
be obtained estimating for each word Wr in Ti the max- 
imum possible size Dr of its corresponding audio data 
on the tape, and taking the sum of all Dr (r=l,2...) in a 
segment as the length of a segment in the tape. 
[0076] This information is transferred to the bkx:k 502 
where the following tasks are performed. The end of the 
audkj segment on the tape that corresponds to the pre- 
vious T(i-1 ) text (or the beginning of the tape for the first 
TI segment) is identified, the next segment of the tape 
with length that is provkied from the block 501 is played 
automatic speech recognizer 506. TTie automatic 



speech recognizer decodes this audk> data using the vo- 
cabulary that was provided from the block 501 . The au- 
tomatic speech recognizer sends each decoded series 
of words Wl .W2, ... Wk to the bkx:k 501 and compares 

5 it with the text Ti. If the decoded series of words matches 
well with the corresponding part VI , V2....V1 in Ti, then 
the next word V(l+1) is added to the list of alternative 
words the automatic speech recognizer is processing in 
decoding the corresponding segment of audk> data. 

'0 (This candidate word V(1 +1 ) could be given with an ad- 
ditional score that represents the likelihood of being the 
next word in the considered path). After the whole text 
Ti is decoded, the end of the tape audk> data that cor- 
responds to the end of the text is defined. This end of 

^5 the audio segment is transferred to the next step (de- 
coding of T(i+1)) part of the text if Ti is not the last seg- 
ment in T. 



20 Claims 

1 . An apparatus for indexing an audio recording com- 
prising: 

2^ an acoustic recorder (70) for storing an ordered 

series of acouslk: information signal units rep- 
resenting sounds generated from spoken 
words, said acoustic recorder having a plurality 
of recording tocations, each recording location 

50 storing at least one acoustic intomiation signal 

unit ; 

a speech recognizer (72) for generating an or- 
dered series of recognized words having a high 
35 conditksnal probability of occurrence given the 

occurrence of the sounds represented by the 
acoustic information signals, each recognized 
word corresponding to at least one acoustic in- 
formation signal unit, each recognized word 
having a context of at least one preceding or 
following recognized word; 

a text storage devk;e (74) for storing an ordered 
series of index words, said ordered series of in- 
^ dex words comprising a visual representation 

of at least some of the spoken words represent- 
ed by the acoustic information signal units, 
each index word having a context of al least one 
preceding or following index word; and 

50 

means (76) for comparing the ordered series of 
recognized words with the ordered series of in- 
dex words to pair recognized words and index 
words which are the same word and which have 
55 matching contexts, and for tagging each paired 

index word with the recording kx:ation of the 
acoustic information signal unit corresponding 
to the recognized word paired with the index 
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word. 

2, An apparatus as claimed in Ciaim 1 , 
characterized in that the speech recognizer aligns 
each recognized word with at least one acoustic in- -s 
fornnation signal unit. 

3. An apparatus as claimed in Claim 1 or 2. 
characterized in that: 

10 

each recognized word which is not paired with 
an index word has a nearest preceding paired 
recognized word in the ordered series of recog- 
nized words, and has a nearest following paired 
recognized word in the ordered series of recog- is 
nized words; 

the context of a target recognized word com- 
prises the number of other recognized words 
preceding the target recognized word and fol- 20 
lowing the nearest preceding paired recog- 
nized word in the ordered series of recognized 
words; 

the context of a target index word comprises 25 
the number of other index words preceding the 
target index word and following the nearest pre- 
ceding paired index word in in the ordered se- 
ries of index words; and 

30 

the context of a recognized word matches the 
context of an index word if the context of the 
recognized word is within a selected threshold 
value of the context of the Index word. 

4. A method of indexing an audio recording compris- 
ing: 

storingi an ordered series of acoustic informa- 
tion signal units representing sounds generat- 
ed from spoken words, said acoustic recorder 
having a plurality of recording locations, each 
recording location storing at least one acoustic 
inforpDation signal unit; 

46 

generating an ordered series of recognized 
words having a high conditional probability of 
occurrence given the occurrence of the sounds 
represented by the acoustic information sig- 
nals, each recognized word corresponding to so 
at least one acoustic information signal unit., 
each recognized word having a context of at 
least one preceding or following recognized 
word; 

55 

storing an ordered series of index words, said 
ordered series of index words comprising a vis- 
ual representation of at least some of the spo- 



ken words represented by the acoustic informa- 
tion signal units, each index word having a con- 
text of at least one preceding or following index 
word; 

comparing the ordered series of recognized 
words with the ordered series of index words to 
pair recognized words and index words which 
are the same word and which have matching 
contexts; and 

taggif^g ^ach paired index word with the record- 
ing kx^tion of the acoustic information signal 
unit corresponding to the recognized word 
paired with the index word. 

5. A method as claimed in claim 4. characterized in 
that: 

each recognized word comprises a series of 
one or nrtore characters; 

each index word comprises a series of one or 
more characters; and 

a recognized word is the same as an index word 
when both words comprise the same series of 
characters. 

6. A method as claimed in any one of the preceding 
claims, characterized in that: 

the context of a target recognized word com- 
prises the number of other recognized words 
preceding the target recognized word in the or- 
dered series of recognized words; 

the context of a target index word comprises 
the number of other index words preceding the 
target index word in the ordered series of index 
words; and 

the context of a recognized word matches the 
context of an index word if the context ol the 
recognized word is within a selected threshold 
value of the context ol the index word, 

7. A method as claimed in any one of the preceding 
claims, characterized in that 

each index word which is not paired with a rec- 
ognized word has a nearest preceding paired 
index word in the ordered series of index words, 
and has a nearest following paired index word 
in the ordered series of index words; and 

the step of tagging comprises tagging a non- 
paired Index word with a recording location be- 
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tween the recording location of the nearest pre- 
ceding p)aired index word and the recording lo- 
cation of the nearest following paired index 
word. 

5 

8. A method as claimed in any one of the preceding 
claims, further comprising the step of aligning each 
recognized word with at least one acoustic informa- 
tion signal unit. 

10 

9. A method as claimed in any of the preceding claims, 
characterized in that: 

each recognized word which is not paired with 
an index word has a nearest preceding paired is 
recognized word in the ordered series of recog- 
nized words, and has a nearest following paired 
recognized word in the ordered series of recog- 
nized words: 

20 

the context of a target recognized word com- 
prises the number of other recognized words 
preceding the target recognized word and fol- 
lowing the nearest preceding paired recog- 
nized word in the ordered series of recognized 25 
words; 

the context of a target index word comprises 
the number of other index words preceding the 
target index word and following the nearest pre- so 
ceding paired index word in in the ordered se- 
ries of index words; and 

the context of a recognized word matches the 
context of an index word if the context of the 55 
recognized word is within a selected threshold 
value of the context of the index word. 



Patentanspruche 40 

1. Eine Vorrichtung, um eine Audioaufzeichnung zu 
indizieren. mit 

einem Tonaufzeichnungsgerat (70), um eine 
Reihenfolge von akustischen Informationssi- 
gnaieinheiten zu speichern, die von gesproche- 
nen Worten erzeugte Tone darstelien, wobei 
das Tonaufzeichnungsgerat eine Vielzahl von 
Aufzetchnungsstellen hat, von denen jede Auf- so 
zeichnungsstelle mindestens eine akustische 
Informationssignaleinhert speichert; 

einer Spracherkennung (72). um eine Reihen- 
folge von erkannten Worten mit einer hohen, ss 
bedinglen Wahrscheinlichkeil des Auftretens 
zu erzeugen, die von dem Auftreten der Tone 
gageben wird. die von dsn akustischen Infor- 



malionssignalen dargestellt werden, wobei je- 
des erkannte Wort mindestens einer akusti- 
schen Inlormalionssignaletnheit entspricht. 
und jedes erkannte Won einen Koniext zu min- 
destens einem vorhergehenden Oder nachfol- 
genden erkannten Wort hat; 

einem Textspeichergeral (74). um eine Reihen- 
folge von Indexwortern zu speichern, wobei die 
Reihenfolgen mit Indexwortern eine visuelle 
Darstellung von mindestens einem der gespro- 
chenan Worle enthallen, die von den akusti- 
schen Informationssignaleinheiten dargestellt 
werden, und jedes Indexwort einen Kontext zu 
mindestens einem vorhergehenden Oder nach- 
folgenden Indexwort hat; und 

Mittel (76), umdie Reihenfolgen von erkannten 
Wortern mit den Reihenfolgen von Indexwor- 
tern zu vergleichen, um die erkannten Worter 
und Indexworter, die gleich sind und uberein- 
stimmende Kontexte haben. zu paaren, und um 
jedes gepaarte Indexwort in der Aufzeich- 
nungsstelle der akustischen Informationssi- 
gnaletnheit entsprechenddem erkannten Wort, 
das mit dem Indexwort gepaart wurde, zu kenn- 
zeichnen. 

2. Eine Vorrichtung wie in Anspruch 1 angemeldet, da- 
durch gekennzeichnet, daO die Spracherkennung 
jedes erkannte Wort zu wenigstens einer akusti- 
schen Informationssignaleinheit ausrichtet. 

3. Eine Vorrichtung wie in Anspruch 1 Oder 2 angemel- 
det, dadurch gekennzek:hnet, daB 

jedes erkannte Wort, das nicht mit einem Index- 
wort gepaart ist, ein am nachsten kommendes 
Wort hat, das vor dem gepaarten, erkannten 
Wort in den Reihenfolgen der erkannten Worter 
liegt, und ein am nachsten kommendes Wort 
hat, das nach dem gepaarten, erkannten Wort 
in den Reihenfolgen der erkannten Worter liegt; 

der Kontext eines erkannten Zielworts die An- 
zahl der anderen erkannten Worter enth^lt. die 
dem erkannten Zielwort vorausgehen und die 
dem am nachsten kommenden Wort, das vor 
dem gepaarten, erkannten Wort in den Reihen- 
folgen der erkannten Worter liegt, foigen; 

der Koniext eines Zielindexworts die Anzahl 
der anderen Indexworter enthalt, die dem Ziel- 
indexwort vorausgehen, und die dem am nach- 
sten kommenden Wort, das vor dem gepaarten 
Indexwort in den Reihenfolgen der Indexworter 
liegt, foigen; und 
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Wort in den Reihenfolgen der erkannlen Worter 
liegl, und ein am nachslen kommendes Wort 
hat. das nach dem gepaarten, erkannlen Wort 
in den Reihenfolgen der erkannlen Worter tiegt; 

5 

der KonlGXt eines erkannlen Zielworls die An- 
zahl der anderen erkannlen Worter enthalt, die 
dem erkannlen Zrelwort vorausgehen und die 
dem am nachslen kommenden Wort, das vor 
dem gepaarten. erkannlen Wort in den Reihen- io 
folgen der erkannlen Worter liegt, folgen; 

der Kontext etnes Zielindexworts die Anzahl 
der anderen Indexworter enlhall. die dem Ziel- 
indexwort vorausgehen. und die dem am nach- is 
si en kommenden Wort, das vor dem gepaarten 
Indexwort in den Reihenfolgen der Indexworter 
liegt, folgen; und 

der Kontext eines erkannlen Worts mil dem 20 
Kontext eines indexworts ubereinstlmml, wenn 
der Kontext des erkannten Worts innerhalb ei- 
nes ausgewahllen Schwellwerts des Kontexts 
vom Indexwort liegl. 



Revendlcatlons 

1 . Un dispositif pour indexer un enregislrement audio, 
comprenanl : 30 

un enregislreur acoustique (70), destin6 b stoc- 
ker une s6rie class6e d'unitds de signal d'infor- 
malion acoustique reprdsenlanl des sons gd- 
neres k partir de mots 6nonc6s, ledrt enregis- 35 
treur acousttque ayant une plurality d'emplace- 
ments d'enregistrement. chaque emplacement 
d'enregistrement stockanl au moins une unit6 
de signal d'informalion acoustique; 

40 

un identificateur de la parole (72) destin6 ^ g6- 
ndrer une sdrie class^e de mots identifies ayant 
une forte probabilil6 condilionnelle d'occurren- 
ce, 6tant donn6 I'occurrence des sons repr6- 
sent6s par les signaux d'information acousli- ^ 
que, chaque mot idenlifid correspondanl k au 
moins une unite de signal d'information acous- 
lique, chaque mot idenlifid ayant un contexte 
d'au moins un mot idenlifi6 pr6c6dant ou sui- 
vant; so 

un dispositif de slockage de texte (47) dastrnd 
^ stocker une serie classde do mots d'indexa- 
tion, tesdites series class6es de rriots d'indexa- 
tion comprenanl une representation visuelle ss 
d'au moins certains des mots 6nonc6s, repr6- 
sentes par les unites de signal d'informalion 
acoustique, chaque mot d'indexalion ayant un 



contexte d'au moins un nnot d'indexalion pr^cd- 
dant ou suivant; ot 

des moyens (76) pour comparer les s6ries clas- 
sees de mots identifies avec les series clas- 
s6es de mots d'indexalion. ^ des paires de 
mots identifies et de mots d'indexalion qui eont 
te meme mol et qui onl des conlexles de coin- 
cidence, et pour 6liqueter chaque mot d'in- 
dexalion en paires avec I'emplacement d'enre- 
gistrement de I'unite de signal d'infonnalion 
acoustique correspondanl au mot identifie mis 
, en paire avec le mot d'indexalion. 

2. Un dispositif selon la revendication 1 . caract6ris6 
en ce que ridentificateur de la parole aligne chaque 
mot identifid avec au moins une unite de signal d'in- 
formation acoustique. 

3. Un dispositif selon la revendication 1 ou 2. caractd- 
rise en ce que : 

chaque nrtot identifie qui n'est pas mis en paire 
avec un mot d'indexalion a un mot identifie mis 
en paire precedent le plus proche dans les se- 
ries class6es de mots kJenlifies, el a un mot 
identine mis en paire suivant le plus proche 
dans les series classees de mots identifies; 

le contexte d'un mot identifie cible comprend le 
nombre d'autres mots identifies qui precedent 
le mot identifie cible et qui suivent le mol iden- 
tifie mis en paire precedent le plus proche dans 
les series classees de mots identifies; 

le contexte d'un mot d'indexalion cible com- 
prend ie nombre des autres mots d'indexalion 
qui precedent le mot d'indexalbn cible el qui 
suivent le mot d'indexatkxi mis par paire prece- 
dent le plus proche dans les series classees de 
mots d'indexalion; et 

le contexte d'un mol identifie coincide avec le 
contexte d'un mol d'indexalion si le contexte 
dans le mot identifie est silue dans une valeur 
de seuil seieclionne du contexte du mol d'in- 
dexalion. 

4. Un precede d'indexalion d'un enregislrement audio 
comprenanl : 

la memorisation d'une s6ria classee d'unites de 
signal d'information acoustique representant 
des sons generes par des mots enonc6s. ledit 
enregislreur acouslk^ue ayant une pluralite 
d'emplacemenls d'enregistrement, chaque 
emplacement d'enregistrement slockant au 
moins une unite de signal d'information acous- 
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tique; 

la gdn^ralion de series class^es de mots iden- 
Iffids ayant une forte probabilit6 conditionnelle 
d'occurrence 6tant donnd foccurrence des 5 
sons repr6sent6s par las signaux d'informatlon 
acoustique, chaque mot identifies correspon- 
dant S au moins une unite de signal d'informa- 
tion acoustique. chaque mot identifid ayant un 
conlexte d'au moins un mot identifid pr6c6dant 
ou suivant; 

la memorisation de s6ries classdes de mots 
d'indexation, ladite s6rie class6e de mots d'in- 
dexation comprenant une representation vi- is 
suelle d'au moins certains des mots 6nonc6s, 
representes par les unites de signal d'informa- 
tton acoustique. chaque mot d'indexation ayant 
un conlexte d'au moins un mot d'indexation 
prec6dant ou suivant; 20 



5. Un procdde salon la revendication 4. caracterise en 

ce que : 35 

chaque mot identifi6 comprend une s^rie d'un 
ou plusieurs caract6res; 

chaque mot d'indexation comprend une s6riG ^ 
d'un ou plusieurs caract^res; et 

un mot identifie est te m6me qu'un mot d'in- 
dexation lorsque les deux mots sont constitues 
des mdmes series de caracteres. -^s 

6. Un precede selon I'une quelconque des revendica- 
tions pr6c6dentes, caract6ris6 en ce que : 

le contexte d'un mot idenlifie cible comprend le so 
nombre d'autres mots identifies precedant le 
mot identifie cible dans les series ctasseos des 
mots identifies; 

le contexte d'un nx>t d'indexation cible con-t- ss 
prend le nombre d'autres mots d'indexation 
pr6c6dant le mot d'indexation cible dans les se- 
ries classees des mots d'indexation; et 



le contexte d'un mot identifie coTncidant avec 
le conlexte d'un mot d'indexation si le contexte 
du mot idenline est sitae dans une valeur seuil 
seiectionnee du contexte du mot d'indexation. 

7. Un proc6de selon Tune quelconque des revendica- 
tions precedentes. caracteris6 en ce que : 

chaque mot d'indexation qui n'est pas mis en 
paire avec un mot identine a un mot d'indexa- 
tion mis en paire precedant le plus proche dans 
les series class6es des mots d'indexation. et un 
mot d'indexation mis en paire suivant le plus 
proche dans les series classees des mots d'in- 
dexation; et 

retape d'etiquetage comprend retiquetage d'un 
mot d'indexation non-mis en paire avec un em- 
placement d'enregislrement entre I'emplace- 
ment d'enregislrement du mot d'indexation mis 
en paire precedant le plus proche et I'emplace- 
ment d'enregislrement du mot d'indexation mis 
en paire suivant le plus proche, 

Un precede selon I'une quelconque des revendica- 
tions precedentes. comprenant en outre retape 
consistant k aligner chaque mot identifie avec au 
moins une unite de signal d'intormation acoustique, 

Un proc6d6 selon Tune quelconque des revendica- 
tions precedentes. caracterise en ce que : 

chaque mot identifie qui n'est pas mis en pajre 
avec un mot d'indexation a un mot identifie mis 
en paire precedant le plus proche dans les se- 
ries classees de mots identifies, et k un mot 
identifie mis en paire suivant le plus proche 
dans les series classees de mots identifies; 

le contexte d'un mot identifie cible comprend le 
nombre d'autres mots identifies prec6dant le 
mot identifie cible et suivant le mot identifie mis 
en paire precedant le plus proche dans les se- 
ries classees de mots identifies; 

le contexte d'un mot d'indexation cible com- 
prend le nombre d'autres mots d'indexation 
precedant le mot d'indexation cible et suivant 
le mot d'indexation mis en paire precedent le 
proche dans les s6ries class6es de mots d'in- 
dexation; el 

le contexte d'un mot identifie coincide avec le 
contexte d'un mot d'indexation si le conlexte du 
mot identifie est silue dans une valeur seuil se- 
iectionnee du contexte du mol d'indexation. 



la comparaison des series classees des nrx>ts 
identifies avec les series classees des mots 
d'indexation k des mots identifies et des mots 
d'indexation mis en paires. qui sont le mdme 25 s. 
mot et qui ont des context es de coincidence; et 

retiquetage de chaque mot d'indexation mis en 
paire avec I'emplacement d'enregislrement de 
■'unite de signal d'information acoustique cor- 30 9. 
respondant au nrx>l identifie mis en paire avec 
le mot d'indexation. 
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